**สรุปเอกสาร: ตัวแทนการเรียนรู้แบบเสริมกำลัง (RL) ที่ใช้โมเดลภาษาใหญ่ (LLM) สำหรับระบบแนะนำสินค้า** **ผู้เขียน**: - Shuang Feng (Stanford University) - Grace Feng (University of California, Santa Barbara) **วัตถุประสงค์**: พัฒนาและเปรียบเทียบประสิทธิภาพของตัวแทนการเรียนรู้แบบเสริมกำลัง (RL) ที่ใช้โมเดลภาษาใหญ่ (LLM) ในระบบแนะนำสินค้า โดยทดสอบในสภาพแวดล้อมจำลอง **WebShop** ซึ่งเป็นแพลตฟอร์มที่เลียนแบบการช้อปปิ้งออนไลน์ด้วยคำสั่งจากมนุษย์ **วิธีการวิจัย**: 1. **ข้อมูลและสภาพแวดล้อม**: - ใช้ข้อมูลจาก WebShop ซึ่งประกอบด้วยคำสั่งจากมนุษย์ 12,087 รายการ และสินค้า 1.18 ล้านรายการ - สภาพแวดล้อมแบ่งเป็น 4 ประเภทหน้าเว็บ: หน้าค้นหา, หน้าแนะนำสินค้า, หน้าสินค้า และหน้าลายละเอียดสินค้า 2. **เทคนิคการเรียนรู้**: - **PPO (Proximal Policy Optimization)**: ใช้ปรับปรุงนโยบายอย่างมีเสถียรภาพด้วยการจำกัดการเปลี่ยนแปลง - **DPO (Direct Preference Optimization)**: เรียนรู้จากความชอบของมนุษย์โดยไม่ต้องใช้แบบจำลองรางวัล ช่วยลดความต้องการข้อมูล - **การฝึกด้วยข้อมูลสังเคราะห์**: สร้างเส้นทางการเรียนรู้จากนโยบายอ้างอิงเพื่อลดการพึ่งพาข้อมูลมนุษย์ **ผลการทดลอง**: - **DPO** ให้ประสิทธิภาพดีกว่า **PPO** ในด้านความสำเร็จ (success rate) และประสิทธิภาพ (score) โดยใช้เวลาฝึกเพียง 30 นาที (19% success rate) เทียบกับ PPO ที่ใช้เวลา 2 ชั่วโมง (15% success rate) - การฝึกด้วยข้อมูลสังเคราะห์ให้ผลลัพธ์ใกล้เคียงกับการใช้ข้อมูลจากมนุษย์ แสดงถึงความเป็นไปได้ในการลดต้นทุนการเก็บข้อมูล **ข้อสรุป**: - DPO เหมาะสมสำหรับระบบแนะนำสินค้าที่ต้องการการเรียนรู้อย่างรวดเร็วและมีข้อมูลจำกัด - การใช้ข้อมูลสังเคราะห์ช่วยเพิ่มประสิทธิภาพและลดการพึ่งพาข้อมูลมนุษย์ ซึ่งเป็นแนวทางที่ประหยัดและขยายขนาดได้ **คำสำคัญ**: การเรียนรู้แบบเสริมกำลัง (RL), โมเดลภาษาใหญ่ (LLM), ระบบแนะนำสินค้า, DPO, PPO, การเรียนรู้จากความชอบของมนุษย์ (RLHF) **งานนี้เป็นส่วนหนึ่งของโครงการวิชาการที่ Stanford University และได้รับการยอมรับในการประชุม KDD’24 Workshop** --- **หมายเหตุ**: สรุปนี้เน้นประเด็นหลักของเอกสาร โดยย่อเนื้อหาทางเทคนิคบางส่วนเพื่อความเข้าใจที่ง่ายขึ้น